Productos de datos: Modelos llevados al siguiente nivel

Women in Data Science 2017, CDMX.

Jessica Barbosa (jessica@opi.la)

02-febrero-2017

Agenda

  • Sobre mí
  • Una historia
  • Modelos
  • Productos de datos
  • Ejemplos
  • Arquitectura: Datos
  • Arquitectura: Aplicación
  • Comentarios varios

Sobre mí

  • OPI https://opi.la
    • Data Scientist: Prevención social de la violencia.
    • Data Engineer: Herramientas, servicios, infraestructura. Diseño de software.

Una historia


Había una vez, en el área de Mercadotecnia de una empresa grande…

Modelos

  • Hipótesis de estudio
  • Datos
    • Conseguirlos, limpiarlos
    • Análisis exploratorio
  • Ajustar un modelo
  • Evaluar el desempeño del modelo
  • ¿Tienen sentido los resultados?

  • Presentar resultados: junta, pdf, artículo.

Productos de datos

  • Aplicaciones que se alimentan de datos.
  • Datos:
    • Origen
    • Tamaño
    • Frecuencia de actualización
  • Aplicación:
    • Número de usuarios
    • Tiempo de ejecución de procesos
    • Interfaz

Ejemplos

  • Sistemas de recomendación
    • “Dado que usted consumió A y B, quizá le interese C”
  • Tiempo de llegada
    • “Dados la hora del día y los datos de tráfico que tenemos, usted tardará Xmin en llegar”
  • Early warning systems
    • “Dadas mediciones de sensores, se aproxima un huracán que seguirá X trayectoria”
  • Evolución de conflictos
    • “Dado un live feed de Twitter + noticias + indicadores económicos, es probable que haya guerra en X lugar”

Un ejemplo de arquitectura

my image

Implicaciones arquitectónicas: Datos

  • Pipelines para normalizar datos
    • Diferentes fuentes y periodicidades
  • Data Container (base, relacional o no, o un data lake, …)
    • Lugar(es) al que van a dar los datos limpios.
  • Computadoras para crear modelos.
    • Dashboards de uso interno, análisis exploratorio, etc.
  • Computadoras para guardar modelos entrenados.

Implicaciones arquitectónicas: Aplicación

  • Front-end
  • APIs que conecten front con datos
  • Datos seleccionados para la aplicación
  • Computadoras que evalúen modelos entrenados
  • Además de…
    • Logs, balanceadores de carga, colas de trabajo (features que tardan en calcularse), etc.

Productos de datos

  • Mayor alcance que los modelos solos
  • Más valor que una aplicación sin inteligencia detrás
  • Business Intelligence vs. Ciencia de Datos: Qué tan integrados están con el resto de la empresa.

Comentarios

Empresas: Si no tienen objetivos medibles e idea de qué necesitan…

  • Alguien que plantee el problema y sus métricas… Y luego a un montón de gente que ejecute.
  • Un prototipo con herramientas open source… Y luego contratar herramientas carísimas a empresas gigantes.

Comentarios

Comentarios

Las tecnologías se vuelven obsoletas, los principios no:

  • Transparecia, replicabilidad
  • Escalabilidad
  • Trabajo interdisciplinario
  • Ética